国际疾病分类(ICD)编码的频率分布呈现出长尾的情况,因此,对少样本编码进行多标签文本分类极具挑战性。针对少样本编码分类中训练数据不足的问题,提出了一种基于元网络的自动ICD编码模型(MNIC)。首先,将特征空间中的实例和语义空间中的特征拟合到同一个空间进行映射,并将频繁编码的特征表示映射到它的分类器权重上,从而通过元网络学习到元知识;然后将学习到的元知识从数据丰富的频繁编码转移到数据贫乏的少样本编码;最后,为元知识的可转移性和通用性提供了合理的解释。在MIMIC-Ⅲ数据集上的实验结果表明,与次优的AGM-HT(Adversarial Generative Model conditioned on code descriptions with Hierarchical Tree structure)模型相比,MNIC将少样本编码的Micro-F1与曲线下面积(Micro-AUC)分别提高了3.77和3.82个百分点,显著提高了少样本编码分类的性能。
为了实现对非线性、滞后性和强耦合的工业过程稳定精确的控制,提出了一种基于局部策略交互探索的深度确定性策略梯度(LPIE-DDPG)的控制方法用于深度强化学习的连续控制。首先,使用深度确定性策略梯度(DDPG)算法作为控制策略,从而极大地减小控制过程中的超调和振荡现象;同时,使用原控制器的控制策略作为局部策略进行搜索,并以交互探索规则进行学习,提高了学习效率和学习稳定性;最后,在Gym框架下搭建青霉素发酵过程仿真平台并进行实验。仿真结果表明,相较于DDPG,LPIE-DDPG在收敛效率上提升了27.3%;相较于比例-积分-微分(PID),LPIE-DDPG在温度控制效果上有更少的超调和振荡现象,在产量上青霉素浓度提高了3.8%。可见所提方法能有效提升训练效率,同时提高工业过程控制的稳定性。
针对使用视觉背景提取(ViBe)模型在室外动态背景下进行移动目标检测时存在不规则闪烁像素点对前景检测结果造成干扰的问题,提出一种基于视觉背景提取算法的闪烁像素噪声消除方法。在背景模型建立阶段设定背景模型样本标准差阈值,约束背景模型的采样值范围以提高背景模型准确性。在前景检测阶段引入自适应检测阈值提高前景物体检测精度,在背景模型更新过程中对图像边缘背景像素点进行边缘抑制以阻止错误背景样本值更新到背景模型。在此基础上,结合形态学操作修复连通域,提高前景图像的完整性。最后选取多个视频序列将该方法与原始ViBe算法、形态学改进方法的检测结果进行对比。实验结果表明,该方法能有效消除闪烁像素噪声对前景检测造成的影响,获取更精确的前景图像。
工业界、学术界,以及最终用户都急切需要一个大数据的评测基准, 用以评估现有的大数据系统,改进现有技术以及开发新的技术。回顾了近几年来大数据评测基准研发方面的主要工作。 对它们的特点和缺点进行了比较分析。在此基础上, 对研发新的大数据评测基准提出了一系列考虑因素:1)为了对整个大数据平台的不同子工具进行评测, 以及把大数据平台作为一个整体进行评测, 需要研发面向组件的评测基准和面向大数据平台整体的评测基准, 后者是前者的有机组合;2)工作负载除了SQL查询之外, 必须包含大数据分析任务所需要的各种复杂分析功能, 涵盖各类应用需求;3)在评测指标方面,除了性能指标(响应时间和吞吐量)之外, 还需要考虑其他指标的评测, 包括系统的可扩展性、容错性、节能性和安全性等。
针对最大频繁项目集挖掘算法(DMFIA)当候选项目集维数高而最大频繁项目集维数较低的情况下要产生大量的候选项目集的缺点,提出了一种改进的基于频繁模式树(FP-tree)结构的最大频繁项目集挖掘算法——FP-MFIA。该算法根据FP-tree的项目头表,采用自底向上的搜索策略逐层挖掘最大频繁项目集,从而加速每次对候选集计数的操作。在挖掘时根据每层的条件模式基产生维数较低的非频繁项目集,尽早对候选项目集进行剪枝和降维,可大量减少候选项目集的数量。同时在挖掘时充分利用最大频繁项集的性质,减少搜索空间。通过算法在不同支持度下挖掘时间的对比可知,算法FP-MFIA在最小支持度较低的情况下时间效率是DMFIA以及基于降维的最大频繁模式挖掘算法(BDRFI)的2倍以上,说明FP-MFIA在候选集维数较高的时候优势明显。
针对人机交互领域速度-准确度折中关系的预测中任务完成精确度的预测模型较为欠缺的问题,提出了一种基于时间约束的精确度模型预测方法。该方法采用了人机交互研究中常用的受控实验测试分析法,研究了在计算机用户界面中要求用户在给定的时间内完成任务时,任务完成的精确度与给定的时间约束之间的折中关系,用以衡量完成时间约束任务的人体工效。实验中设计了一系列受时间约束的轨道滑动任务,实验环境中自变量包括轨道长度、轨道宽度以及规定的在轨道中滑动的时间,因变量为任务完成的精确度,采用在轨道中滑动时轨迹的纵向偏差表示。通过对30位被试者实验数据的分析发现,任务完成的精确度与轨道宽度以及滑动速度(表示为轨道长度/规定的滑动时间)之间构成线性的关系,在此基础上采用最小二乘方回归法建立了一个基于时间约束的任务完成精确度的量化模型;该模型与真实实验数据集的拟合优度达到了0.857。
针对Knuth39随机数发生器运行速度慢的问题,提出了一种基于超多核心(MIC)平台的Knuth39并行化方法.首先,将Knuth39发生器的随机数序列以固定间隔划分成多个子序列;然后,每个线程从各子序列的起点开始生成随机数;最后,将各个线程生成的随机数序列组合成最终的序列.实验结果表明,并行化后Knuth39通过了TestU01的452项测试,与串行程序相同.同中央处理器(CPU)单线程相比,并行化后MIC平台下的最优加速比可达到15.69倍.所提方法有效地提高了Knuth39发生器的运行速度,并且保证了生成序列的随机性,更加适用于高性能计算领域.
针对低信噪比(SNR)环境下鸟叫声识别率不够高的问题,提出一种对声谱图进行Radon变换(RT)和平移不变性离散小波变换(TIDWT)的抗噪型鸟类声音识别技术。首先,使用改进的多频带谱减法对鸟叫声进行降噪处理;其次,利用短时能量检测降噪后的鸟叫声的静音段,并去除静音段;接着,将去除静音段的声音信号转化为声谱图,并对声谱图进行RT和TIDWT,提取特征值;最后,采用支持向量机(SVM)分类器对提取的特征值进行分类识别。实验结果表明,该方法在信噪比为10dB及以下仍可以达到较好的识别效果。